Telegram Group & Telegram Channel
Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью

Методы, основанные на ближайших соседях (например, k-NN), предполагают, что каждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.

📝 Варианты решений

1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.

2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.

3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».

📝 Подводные камни:

📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.

📝 Вывод

Если часть меток отсутствует, не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/986
Create:
Last Update:

Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью

Методы, основанные на ближайших соседях (например, k-NN), предполагают, что каждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.

📝 Варианты решений

1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.

2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.

3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».

📝 Подводные камни:

📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.

📝 Вывод

Если часть меток отсутствует, не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/986

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.“We have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.

Launched in 2013, Telegram allows users to broadcast messages to a following via “channels”, or create public and private groups that are simple for others to access. Users can also send and receive large data files, including text and zip files, directly via the app.The platform said it has more than 500m active users, and topped 1bn downloads in August, according to data from SensorTower.Библиотека собеса по Data Science | вопросы с собеседований from ye


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA